案例 ②
Nate B Jones 实验 (。・ω・。)ノ
42% 实验 78%
结论更极端 (`・ω・´)
研究员 (。・ω・。)
Nate B Jones
AI 工程研究员 (`・ω・´)
编程基准测试 · Harness 对比实验
同一个模型 同一个提示词 改变 Harness 成功率巨变 42% → 78%
实验条件 (。・ω・。)
同一个模型
模型不变 (`・ω・´)
AI =
同一个提示词
提示词不变 (。ŏ_ŏ)
=
只改变环境
唯一变量 ✧(≖ ◡ ≖✿)
v1 v2
模型锁定 · 提示词锁定 · 只动 Harness (。・ω・。)ノ
编程基准测试成功率 (。・ω・。)
改之前
原始 Harness
25
50
75
42%
+36% 提升 ✧
改之后
优化 Harness
25
50
75
78%
差了将近一倍 ✧*。٩(ˊᗜˋ*)و✧*。
变量只有一个 (`・ω・´)
42%
原始环境 (´;ω;`)
只改 Harness (。・ω・。)
78%
优化 Harness ✧(≖ ◡ ≖✿)
变量只有 Harness (。・ω・。)ノ
换句话说 (。ŏ_ŏ)
Harness 提升
42% 78%
=
等效于
旧模型 新一代模型 性能跃升
换模型 Harness
核心发现 (。・ω・。)
同模型
同提示词 (`・ω・´)
只改 Harness
优化运行环境 (。・ω・。)
成功率翻倍
42% → 78% ✧*。٩(ˊᗜˋ*)و✧*。
Harness 的提升 ≈ 换一代模型
模型不是瓶颈,运行环境才是关键 (`・ω・´)ゞ